GPT-4模型架构：它比你想象的更简单

Original 走向未来走向未来 2023-08-31

收录于合集

#人本AGI 43 个

#生成式AI 33 个

#GPT-4 13 个

#ChatGPT 4 个

#大模型 38 个

下图是根据许多小道消息还原出来的 GPT-4的架构图，小道消息来源包括：

1. 在硅谷的朋友
2. Twitter上的消息
3. 公开的新闻、技术报告和论文

架构图如下图所示，OpenAI 参考了 GLaM模型架构，但没有采用 GLaM模型中 MoE 和 Dense交替的方法，模型参数和 GPT-3（GPT-3.5的参数设置和 GPT-3一样）非常一致。Gating模块的具体实现没透露，有可能是简单的 Wx+b。图像输入有可能不是原始的 ViT，大小在几十B（10B~100B之间）。全部参数1T左右，并非220B*8=1760B（1.76T），每次推断时激活的参数在300B左右，约等于 Google 的 PaLM2的340B。图像理解部分没有开放的原因是“对齐”（SFT 和 RLHF）方面并没有做的足够好，还在继续“调教”中。本文全部都是小道消息，如存在不符合事实之处，希望得到指正，评论或者私信皆可。一旦确认即更新本文，并公开（如果愿意公开）或匿名（如不愿意公开）感谢。

本号只有和通用人工智能有关的内容，会持续跟踪人工智能【大模型、AGI、AIGC、生成式AI、文生文、文生图、图像理解、强化学习、知识图谱、深度学习】有关的数据、算法、模型和创投，欢迎关注本公众号获得一手数据和知识。

许多消息其实在一些圈子里很早就开始传开了，只是大家都没有公开说出来。所以，搞生成式 AI，可能跟搞原子弹差不多，圈子里的人都知道怎么做，但大家都不说。知道的人觉得很简单，主要是缺钱/算力（缺铀）；不知道的觉得很神秘！

另外，本人所写的珠峰书《知识图谱：认知智能理论与实战》一书配有教学 PPT，有兴趣开知识图谱课程的老师可阅读下面文章：

珠峰书《知识图谱：认知智能理论与实战》“升级”了：配套PPT，教学更easy！

另外2，最近AI 真的很卷，每天都有新东西。端午几天天天看论文，才补回了一点点！搞 AI 真的容易焦虑。这不，年初声势浩大的光年之外，现在传闻其老板王慧文因个人健康问题暂时休养了。本来我也想写一篇长文详细解析 GPT-4的架构积木如何搭建起来的，但也因身体问题，就随便写写啦。

如果觉得这篇文章对你有用，请随手点赞、关注、转发、在看、打赏！

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

GPT-4模型架构：它比你想象的更简单

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

生成图片，分享到微信朋友圈

GPT-4模型架构：它比你想象的更简单

您可能也对以下帖子感兴趣